دادهکاوی، پایگاهها و مجموعههای حجیم دادهها را در پی کشف واستخراج دانش، مورد تحلیل و کند و کاوهای ماشینی (و نیمهماشینی) قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آماردانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید.
اصلاح Data Mining همان طور که از ترجمه آن به معنی داده کاوی مشخص میشود به مفهوم استخراج اطلاعات نهان و یا الگوها وروابط مشخص در حجم زیادی از دادهها در یک یا چند بانک اطلاعاتی بزرگ است.
بسیاری از شرکتها و موسسات دارای حجم انبوهی از اطلاعات هستند. تکنیکهای دادهکاوی به طور تاریخی به گونهای گسترش یافتهاند که به سادگی میتوان آنها را بر ابزارهای نرمافزاری امروزی تطبیق داده و از اطلاعات جمع آوری شده بهترین بهره را برد. در صورتی که سیستمهای Data Mining بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانکهای اطلاعاتی بزرگ فراهم باشد، میتوان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشند، چرا، در کدام مقطع زمانی و بسیاری از موارد مشابه پاسخ داد.
یکی از ویژگیهای کلیدی در بسیاری از ابتکارات مربوط به تامین امنیت ملی، داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار میرود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده هاست. داده کاوی غالباً در زمینه تامین امنیت ملی به منزله ابزاری برای شناسایی فعالیتهای افراد خرابکار شامل جابه جایی پول و ارتباطات بین آنها و همچنین شناسایی و ردگیری خود آنها با برسی سوابق مربوط به مهاجرت و مسافرت هاست. داده کاوی پیشرفت قابل ملاحظهای را در نوع ابزارهای تحلیل موجود نشان میدهد اما محدودیتهایی نیز دارد. یکی از این محدودیتها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک میکند اما اطلاعاتی را در باره ارزش یا میزان اهمیت آنها به دست نمیدهد. دومین محدودیت آن این است که با وجود توانایی شناسایی روابط بین رفتارها و یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی در گرو بهره گیری از کارشناسان فنی و تحلیل گران کار آزمودهای است که از توانایی کافی برای طبقه بندی تحلیلها و تغییر آنها برخوردار هستند. بهره برداری از داده کاوی در دو بخش دولتی و خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازار یابی آنرا عموماً برای کاهش هزینهها، ارتقاء کیفی پژوهشها و بالاتر بردن میزان فروش به کار میبرند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بودهاست اما امروزه دامنه بهره برداری از آن گسترش روزافزونی یافته و سنجش و بهینه سازی برنامهها را نیز در بر میگیرد. بررسی برخی از برنامههای کاربردی مربوط به داده کاوی که برای تامین امنیت ملی به کار میروند، نشان دهنده رشد قابل ملاحظهای در رابطه با کمیت و دامنه دادههایی است که باید تجزیه و تحلیل شوند. تواناییهای فنی در داده کاوی از اهمیت ویژهای برخوردار اند اما عوامل دیگری نیز مانند چگونگی پیاده سازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند. یکی از این عوامل کیفیت داده هاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرمافزار داده کاوی با بانکهای اطلاعاتی است که از سوی شرکتهای متفاوتی عرضه میشوند عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره برداری از دادهها به منظوری است که در ابتدا با این نیت گرد آوری نشدهاند. حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت. اصولاً به پرسشهای زیر در زمینه داده کاوی باید پاسخ داده شود:
· سازمانهای دولتی تا چه حدی مجاز به بهره برداری از دادهها هستند؟
· آیا از دادهها در چارچوبی غیر متعارف بهره برداری میشود؟
· کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟
کاوش در دادهها بخشی بزرگ از سامانههای هوشمند است. سامانههای هوشمند زیر شاخهایست بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی که خود زمینهایست در هوش مصنوعی.
فرایند گروه گروه کردن مجموعهای از اشیاء فیزیکی یا مجرد به صورت طبقههایی از اشیاء مشابه هم را خوشهبندی مینامیم.
با توجه به اندازههای گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعههای دادهها مقیاسپذیری الگوریتمهای به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در دادهها است.
کاوشهای ماشینی در متون حالتی خاص از زمینه? عمومیتر کاوش در دادهها بوده، و به آن دسته از کاوشها اطلاق میشود که در آنها دادههای مورد مطالعه از جنس متون نوشته شده به زبانهای طبیعی انسانی باشد.
بر گرفته از ویکی پدیا
برای دانلود مقاله ISI داده کاوی مربوط به سالهای 2012 و 2013 به وب سایت ایران سای – مرجع علمی فنی مهندسی مراجعه نمایید.
با تشکر